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摘 要 : [目的 /意义 ] 荒漠 植物 的 准确 识别 是 其 认识 和 保护 过 程 中 不 可 或 缺 的 任务 ， 是 荒漠 生态 研究 与 保护 的 基 
础 。 自 然 条 件 下 野外 荒漠 植物 图 像 的 机 器 视觉 自动 分 类 识别 可 有 效 提 升 植物 资源 调查 效率 、 降 低 人 为 主观 因素 影 


啊 ， 对 荒漠 植物 的 精准 分 类 、 多 样 性 保护 和 资源 化 利 


] 具 有 重要 意义 。[ 方 法 ] 以 自然 环境 下 的 整 株 荒 并 植物 图 像 


为 研究 对 象 ， 构 建新 疆 干 旱 区 荒漠 植物 图 像 数 据 集 ， 以 EfficientNet B0 一 B4 网 络 为 基础 网 络 ， 提 出 一 种 融合 迁移 学 
习 和 集成 学 习 的 荒漠 植物 图 像 识别 算法 ， 并 在 公开 数据 集 Oxford Flowers102 上 进行 对 比 验证 。[ 结 果 和 讨论 ] 基于 
EfficientNet BO 网 络 的 单一 子 模型 的 Top-1l 准确 率 最 高 可 达 93.3$5% ， 最 低 为 92.26% ， 软 投票 Ensemble-Soft 模 型 WE 
投票 Ensemble-Hard 模 型 以 及 加 权 投 票 法 集成 的 Ensemble-Weight 模 型 的 准确 率 分 别 为 93.63% . 93.55% 和 93.67%, 
F, Score 和 准确 率 相当 ; 基于 EfficientNet B0 一 B4 网 络 的 单一 子 模型 的 Top-1 淮 确 率 最 高 可 达 96.65%，F Score 为 
96.71%， 而 Ensemble-Soft 模 型 、Ensemble-Hard 模 型 以 及 Ensemble-Weight 模 型 的 准确 率 分 别 为 99.07%、98.91% 和 
99.23%， 相 较 于 单一 子 模型 ， 精 度 进一步 提高 ，F, Score 与 准确 率 基 本 相同 ， 模 型 性 能 显著 ; 在 公开 数据 集 Oxford 
Flowers102 上 进行 对 比试 验 ，3 个 集成 模型 相 比 5 个 子 模型 准确 率 和 Fh, Score 最 高 提升 了 4.56% 和 5.05% ， 最 低 也 提 
升 了 1.94% 和 2.29%, 证 明了 本 研究 提出 的 迁移 和 集成 学 习 策 略 能 够 有 效 提 高 模型 性 能 。[ 结 论 ] 本 方法 可 提高 荒 
漠 植 物 的 识别 准确 率 ， 通 过 云端 传输 至 服务 器 后 ， 实 现 荒 漠 植 物 的 准确 识别 ， 为 真实 野外 环境 下 植物 图 像 识 别 精 
度 低 、 模 型 鲁 棒 性 及 泛 化 性 弱 等 问题 提供 解决 思路 。 服 务 于 野外 调查 、 教 学 科普 以 及 科学 实验 等 场景 。 
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苑 漠 植 被 维持 着 范 漠 生态 系统 的 物质 与 能 量 循 
环 ， 在 控制 风沙 、 防 止 进一步 亮 漠 化 和 改善 小 气候 
方面 具有 重要 作用 ， 并 为 人 类 提供 了 药材 、 饲 料 、 
木材 等 副产品 ， 是 草 漠 生态 系统 的 核心 ， 具 有 重要 


其 是 一 些 国 家 级 重点 保护 野生 植物 ， 如 沙 冬青 、 盐 
桦 等 ， 处 于 濒危 的 状态 “。 各 类 资源 调查 是 荒漠 植 
物 研 究 、 保 护 和 利用 的 长 期 性 、 基 础 性 工作 ,在野 
外 作业 过 程 中 ， 准确、 快速 判断 植物 的 学 名 、 科 属 
及 性 状 等 信息 至 关 重 要 ,但 周 于 调查 人 员 的 技术 水 


的 生态 和 经 济 意义 "。 目 前 ， 因 载 畜 量 过 高 、 过 度 
开发 和 气候 变化 等 因素 ， 许 多 荒漠 植物 尚未 得 到 人 
类 深入 认识 和 保护 利用 ,惨遭 破坏 或 灭绝 ”5 ， 尤 
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能 手机 、 数 码 相机 、 无 人 机 等 地 面 和 近 地 面 多 源 数 
据 获 取 手 段 的 丰富 ， 以 卷 积 神经 网 络 ^" (Convo- 
lutional Neural Networks, CNN) 为 代表 的 深度 学 
习 算 法 在 植物 图 像 分 类 和 表征 识别 方面 取得 了 突破 
PEGE |. 目前， 有 关 植 物 分 类 研究 多 在 实验 室 环 
境 下 以 植物 叶片 或 局 部 器 官 为 主要 研究 对 象 “"， 
能 够 获得 较 高 的 识别 精度 ， 但 难以 实际 应 用 到 自然 
环境 下 整 株 植物 图 像 识 别 上 ， 同 时 例如 光照 、 土 
二 、 阴 影 以 及 其 他 植被 造成 的 错综复杂 的 生长 环境 
将 提高 识别 难度 …， 模 型 的 泛 化 能 力 较 差 且 识别 
准确 率 受 到 影响 ， 如 何在 真实 的 环境 下 保证 植物 的 
识别 准确 率 将 成 为 研究 热点 和 难点 。 冯 海 林 等 |? 
提出 了 一 种 基于 树木 整体 图 像 的 树种 识别 方法 ， 相 
比 于 以 植物 叶片 为 研究 对 象 的 识别 精度 有 较 大 提 
升 ,识别 准确 率 达 到 99.15%。 宋 晓 宇 等 "以 植物 
的 叶片 和 花 洒 为 研究 对 象 ， 提 出 一 种 有 效 区 域 筛选 
的 植物 图 像 识别 方法 ， 有 效 提 高 了 识别 准确 率 ， 为 
解决 自然 背景 下 植物 图 像 识 别 问题 提供 了 新 思路 。 
Zhou 等 “依据 6 种 自然 复杂 背景 下 蔬菜 疾病 图 像 ， 
提出 了 一 种 基于 区 域 建议 和 渐进 式 学 习 的 蔬菜 疾病 
识别 方法 ， 可 引导 模型 聚焦 于 具有 自然 复杂 背景 的 
疾病 图 像 中 的 关键 区 域 ， 避 免 手 动 标记 图 像 的 昂贵 
成 本 ， 识 别 准 确 率 达 到 98.26%。Li 等 “以 24 种 荒 
漠 植 物 为 研究 对 象 ， 从 不 同 角 度 比 较 了 一 系列 性 能 
良好 的 CNN 模 型 ， 得 出 MobileNet V2 网络 在 精度 、 
参数 量 和 浮 点 运算 数 (Floating Point Operations， 
FLOPs) 之 间 实 现 了 最 佳 平衡 。 目 前 ， 人 解决 自然 背 
景 下 的 植物 图 像 识别 的 关键 在 于 提高 属于 同一 科 、 
属 下 的 识别 准确 率 "“， 以 及 克服 各 种 影响 精度 的 
ARR Un, 

ADEA fe A EA VRBES PCR UC aD A BR 
别 问题 ， 提 出 一 种 基于 迁移 学 习 和 集成 学 习 的 芳 演 
植物 识别 方法 。 为 最 大 化 利用 荒漠 植物 图 像 ， 使 用 
KK 折 交 又 验证 划分 数据 集 ， 而 后 将 KK 个 子 模型 在 源 
数据 ImageNet 上 进行 迁移 学 习 ， 使 用 投票 法 集成 模 
型 ， 实 现 对 荒漠 植物 的 准确 识别 。 用 智能 识别 算法 
辅助 传统 人 工 识别 荒漠 植物 ， 能 够 为 荒漠 植物 认识 
及 多 样 性 保护 ， 固 沙 、 饲 料及 药 用 植物 开发 与 应 
用 ， 优 良 薪 痰 材 开 发 等 领域 提供 技术 支持 ， 并 减少 
对 专家 鉴定 的 依赖 ， 节 省 时 间 和 人 力 成 本 ， 为 野外 
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调查 人 员 提 供 支 持 ， 为 保护 和 利用 自然 植物 资源 提 
供 科 学 依据 。 


2 材料 与 方法 


2.1 数据 采集 与 预 处 理 


2.1.1 数据 集 构建 

分 别 集中 于 2021 年 9 月 底 和 2022 年 7 月 至 8 
LEGE TEES QU S Tie EL WA eB 
据 。 使 用 智能 手机 和 数码 相机 拍摄 野外 荒漠 植物 
图 像 ， 像 素 大 小 分 别 为 3968X2232 和 4800X 
3200。 采 取 多 角度 多 光线 拍摄 ， 拍 摄 时 保证 拍摄 的 
荒漠 植物 图 像 占据 图 像 中 央 的 主要 部 分 ， 且 包含 例 
如 阴影 、 砂 石 、 光 照 及 其 他 杂 类 草 遮 挡 等 噪声 ， 
以 增强 数据 集 的 鲁 棒 性 。 同 时 记录 每 种 荒漠 植物 的 
专家 鉴定 结果 ， 构建 荡 漠 植物 图 像 数 据 集 ， 共 计 
12,507 张 图 像 ， 包 括 13 科 、43 属 、50 种 植物 类 型 ， 
每 种 荒漠 植物 图 像 数 量 在 183~339 5K, TERM WE 


像 实例 见 图 1。 
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Al 数据 集中 荒漠 植物 图 像 实例 


Fig. 1 Examples of desert plant images in data set 


2.1.2 ”数据 预 处 理 

由 于 图 像 原 图 较 大 ， 需 将 图 像 大 小 统一 调整 为 
600X600。 以 2:8 的 比例 将 数据 集 划 分 为 测试 集 
(2481 张 ) 和 训练 集 (10,026 张 )， 测 试 集 在 进行 测 
试 之 前 不 进行 数据 增强 操作 ， 以 保证 数据 的 独立 性 


:202308.00171v1 


ChinaXiv 


和 无 重复 性 。 而 后 通过 五 折 交 叉 验 证 将 训练 集 划 分 
为 4 个 训练 子 集 和 1 个 验证 子 集 ， 因 训练 子 集 图 像 
数量 较 少 ， 且 难以 覆盖 真实 野外 的 多 种 复杂 情况 ， 
导致 模型 在 训练 过 程 中 可 能 出 现 过 度 拟 合 ， 在 验证 
集 上 表现 出 较 高 的 识别 准确 率 ， 但 在 测试 集 上 的 识 
别 效 果 不 佳 ， 模 型 的 泛 化 性 和 和 鲁 棒 性 较 差 。 因 此 对 
于 训练 子 集 ， 在 训练 过 程 中 需 进行 数据 增强 操作 。 
通过 分 析 荡 漠 植 物 表 征 ， 采 取 图 像 平移 、 翻 转 、 旋 
转 、 随 机 颜色 以 及 随机 黑色 块 遮挡 (黑色 块 长 边区 
间 为 [100，600]， 短 边区 间 为 [10, 60] ) 5 种 
方法 进行 数据 增强 ， 且 过 程 中 随机 选择 、 组 合 ， 
设置 不 同 的 触发 概率 ， 将 训练 子 集 图 像 数量 扩充 
至 $ 倍 。 以 草 麻黄 为 例 ， 数 据 增 强 实例 见 图 2， 其 
中 图 2 (a) WERK, 图 2 (b) 一 图 2 (f) 为 单一 方 
法 的 效果 图 , 图 2 (g) ~ 图 2 (i) 实际 上 为 5 种 数 
据 增 强 方法 随机 选择 、 组 合 后 的 效果 图 。 
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(g) 组 合 1 
图 2 荒漠 植物 图 像 数 据 增强 实例 


(h) 组 合 2 


Fig. 2 Data enhancement instance of desert plant images 


2.2 EfficientNet 网 络 


根据 工程 经 验 ， 若 增 大 网 络 输入 层 的 图 像 分 辩 
率 ， 则 需要 更 深 、 更 宽 的 卷 积 层 来 增加 感受 野 、 捕 
EHRE, 复合 放大 神经 网 络 的 深度 、 宽 度 及 分 
辩 率 等 可 以 使 模型 更 好 地 拟 合 图 像 的 特征 ， 从 而 获 
得 更 好 的 识别 效果 “"”。 通 过 搜索 网 络 的 深度 、 宽 
度 以 及 图 像 的 分 辩 率 ， 达 到 参数 合理 化 配置 的 目 
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的 ， 以 此 来 开发 基础 网 络 EfficientNet BO 7", 复合 
放大 三 者 构建 B1 一 B7 网 络 。 

EfficientNet B0 共 分 为 9 个 阶段 。 第 1 阶段 是 通 
过 3X3 卷 积 进行 下 采样 操作 ， 第 2 至 8 阶段 通过 堆 
#7} MBConv Block， 达 到 提取 图 像 特征 的 目的 ， 
最 后 连接 1 个 1X1 卷 积 、Global average pooling 
(全 局 平均 池 化 ) 和 1 个 全 连接 层 ，EfficientNet BO 
网 络 架 构 见 表 1。 

表 1 EfficientNet B0 网 络 架 构 
Table 1 EfficientNet BO network architecture 


Input(224 X 224 RGB Image) 


WE 卷 积 核 大 小 ERE 倍率 因子 N_ 输出 通道 输出 尺寸 
Conv X1 3x3 2 1 32 112X 112 
MBConv X 1 3x3 1 6 16 112X112 
MBConv X2 3x3 2 6 34 56X56 
MBConv X2 5X5 2 6 40 28X28 
MBConv X3 3X3 2 6 80 14 14 
MBConv X3 5X5 1 6 112 14X14 
MBConv X4 5x5 2 6 192 7X 
6 


MBConvX1 3X3 1 320 7X7 


Convl X 1 & Global average pooling & FC 


EfficientNet BO 网 络 的 输入 图 像 大 小 为 工程 中 
W HH AY 224X224, i it YEA MBConv Block 来 增加 
网 络 的 深度 和 宽度 ， 而 B1 一 B7 网 络 是 在 B0 的 基础 
上 放大 深度 、 宽 度 和 图 像 的 分 辨 率 。MBConv 
Block 结 构 见 图 3。 


kXk DWConv 
Stride 1/2 


图 3 MBConv Block 结构 
Fig.3 Structure of MBConv Block 


2.3 迁移 学 习 


广义 上 讲 ， 利 用 已 有 的 知识 、 模 型 、 结 构 达 成 
在 目标 数据 上 的 学 习 目 标 ， 这 一 过 程 称 为 迁移 学 
Yo. MIAR ys (Pre-Train and Fine-Tune) 长 
久 以 来 被 认为 是 迁移 学 习 最 重要 的 表现 形式 ， 是 指 
在 源 领域 训练 好 一 个 网 络 ， 直 接 将 其 用 于 目标 域 的 
数据 ， 并 在 目标 域 上 进行 微调 。 本 研究 基于 Effi- 
cientNet B0 一 B4 网 络 进 行 迁移 学 习 ， 训 练 过程 中 冻 
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结 1 至 8 阶段 的 权重 ,只 训练 最 后 一 个 1X1 卷 积 层 
和 全 连接 层 ， 在 图 像 数 量 较 少 的 情况 下 ， 也 可 快速 
训练 出 理想 的 模型 。 


2.4 集成 学 习 


2.4.1 ”模型 架构 

在 数据 充足 时 ， 经 典 的 机 需 学 习 方 法 不 如 深度 
学 习 方 法 有 效 ， 但 集成 学 习 (Ensemble Learning) 
在 深度 学 习 领 域 中 仍然 发 挥 着 巨大 的 作用 有 。 目 
前 ， 在 深度 学 习 方法 之 上 引入 集成 学 习 仍 然 是 许多 
深度 学 习 研 究 者 来 提升 效果 的 重要 手段 。 集 成 学 习 
与 其 他 深度 学 习 方 法 的 核心 区 别 在 于 其 专注 于 偏 
差 、 方 差 权 衡 (Bias-Variance Tradeoff) 问题 ， 使 
得 集成 学 习 对 包括 深度 学 习 在 内 的 所 有 机 豆 学 习 方 
法 都 具有 价值 。 在 统计 学 习 中 ， 衡 量 一 个 模型 的 好 
坏 主要 通过 偏差 和 方差 ， 一 般 认 为 低 偏差 和 低 方差 
是 理想 的 结果 ， 集 成 学 习 的 偏差 及 方差 示意 
见 图 4。 


容忍 区 域 己 训练 的 模型 
å "i 
(a) 低 偏差 低 方差 (b) 高 偏差 低 方 差 
e 9 e 
十 e 
e C] 
(c) 低 偏差 高 方差 (d) 高 方差 高 偏差 


图 4 集成 学 习 的 偏差 及 方差 示意 图 
Fig. 4 Diagram of bias and variance of ensemble learning 

如 图 4 所 示 ， 若 模型 表现 出 高 偏差 、 高 方差 以 
及 高 偏差 高 方差 三 类 情况 ， 则 需要 通过 策略 降低 偏 
差 和 方差 。 当 偏差 过 高 时 ， 可 以 通过 增加 模型 复杂 
JE. Boosting ^' 和 Stacking "^ 等 方法 减少 偏差 。 
当 方差 过 高 时 ， 可 以 通过 降低 模型 复杂 度 Bag- 
ging ^ fll Stacking 等 方法 减少 方差 。 集 成 学 习 的 核 
心思 想 是 通过 训练 多 个 模型 ， 并 通过 一 定 的 方式 结 
合 起 来 ， 能 够 降低 偏差 和 方差 ， 从 而 提升 模型 
性 能 。 

本 研究 基于 EfficientNet 网 络 ， 首 先 通 过 迁移 学 
习 在 ImageNet 数 据 集 上 进行 预 训练 ， 而 后 采用 将 
Bagging fill Stacking 结合 的 集成 学 习 策 略 ， 共 分 为 


两 层 。 第 一 层 借鉴 Stacking 方 法 引入 K 折 交叉 验证 
划分 数据 集 以 及 训练 KK 个 子 模型 ， 考虑 到 本 研究 中 
分 类 问题 每 种 模型 的 输出 特征 相同 ,第 二 层 采 用 
Bagging 的 方式 将 第 一 层 模 型 通过 投票 法 集成 ， 区 
HN EH APSE Y ais AK PSE ETT MT LL 
选取 更 优 的 基 学 习 器 ， 以 此 构建 集成 模型 ， 降 低 模 
型 偏差 和 方差 .提升 模型 的 识别 性 能 。 荡 漠 植 物 图 
像 识 别 集成 模型 架构 见 图 5。 


35:2 WAS Brie th 
l 
rm EN 
- = = = ar 

— 4 In WEFR | | ees | | 训练 子 集 4 | | uiscr qo | mid 
本 练 子 集 ! ED wees | [msr] [ems PTT 

waist | [wes ae | ES PTT 

| f 
aru] [0722] [aris E prr || with 


图 5 荒漠 植物 图 像 识 别 集成 模型 架构 
Fig. 5 Integrated model architecture of desert plant 
image recognition 

2.4.2 ”模型 集成 策略 

投票 法 是 一 种 遵循 少数 服从 多 数 原 则 的 集成 学 
习 策 略 ， 通 过 集成 多 个 模型 降低 方差 ， 从 而 提高 模 
型 的 鲁 棒 性 ， 达 到 高 准确 率 的 目的 。 在 理想 情况 
下 ， 投 票 法 的 预测 结果 应 当 优 于 任何 单一 模型 的 预 
测 结果 。 针 对 本 研究 所 开展 的 充 漠 植物 图 像 分 类 问 
题 ， 投 票 法 预测 的 结果 是 所 有 模型 中 出 现 最 多 的 预 
测 结果 ， 分 类 投票 法 又 分 为 软 投票 和 便 投 票 ， 
见 表 2。 


R2 软 投票 和 硬 投票 的 区 别 
Table 2 Difference of soft voting and hard voting 


样本 
模型 
预测 类 别 预测 为 A 的 概率 /% 

子 模型 1 A 类 别 91 

子 模型 2 BAI 49 

子 模型 3 B 类 别 49 
硬 投票 集成 B 类 别 
软 投票 集成 A 类 别 
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如 表 2 所 示 ， 对 于 同一 个 样本 ， 软 投票 (En- 
semble-Soft) 与 便 投 票 (Ensemble-Hard) 可 以 得 出 
不 同 的 结论 。 对 于 一 个 简单 的 二 分 类 ， 一 个 样本 的 
结果 是 A 或 者 B， 三 个 子 模型 对 于 这 个 样本 分 别 有 
三 个 识别 结果 (以 及 预测 概率 )。 对 于 硬 投票 而 言 ， 
遵循 少数 服从 多 数 原 则 ， 而 软 投票 则 是 考虑 预测 概 
率 这 一 额外 信息 ， 将 概率 进行 平均 ， 在 这 个 例子 
中 ， 超 过 50% 则 认为 是 A 类 ， 否则 是 B 类 。 相 对 于 
硬 投票 ， 软 投票 考虑 到 预测 概率 这 一 额外 信息 ， 因 
此 可 以 得 出 比 硬 投票 法 更 加 准确 的 预测 结果 。 考 虑 
到 集成 模型 过 程 中 各 个 子 模型 对 荡 漠 植物 图 像 表征 
提取 能 力 的 不 同 ， 出 现 识 别 准确 率 差 异 的 情况 ， 应 
采取 更 为 合理 的 加 权 投 票 法 (Ensemble-Weight) 集 
成 模型 。 第 i 个 子 模型 的 预测 分 类 结果 如 矩阵 J 
公式 (1) 所 示 。 


P(y,- 1) 
p (1) 
P(y,=n) 


HA, i=1, 2, pP IU—d.-2. 559505 
TOR E BEF CRS FBT Fic A ENR KS PORE ABE 
率 ， 模 型 集成 后 可 通过 加 权 取 各 个 子 模型 的 平均 值 
得 到 预测 结果 EE， 如 公式 (2) Brm. 


E-YwJ (2) 


其 m; om " 
EH, w, ELE ee Be 


5; 1 的 取 值 依据 在 测试 集 上 各 个 子 模型 识别 准确 
率 的 高 低 顺序 ， 准 确 率 最 低 的 子 模型 m = 1， 准 确 
率 最 高 的 子 模型 mw = 5， 以 此 通过 加 权 投 票 法 得 到 
预测 结果 五。 
2.5 模型 评价 指标 
2.5.1 Top-1 准确 率 

图 像 分 类 问题 使 用 测试 集 top(%) 人 准确 率 评价 模 
型 的 优 劣 ， 其 计算 如 公式 (3). 

top(k) = —- (3) 

其 中 , k=1, 2, c5, 5; a 表示 模型 测试 集 
图 像 的 总 数量 ,，r 表 示 模 型 预测 的 前 个 结果 中 测试 
正确 的 图 像 数 量 。 一 般 和 常用 Top-1 准确 率 ， 是 指 排 
名 第 一 的 类 别 与 实际 结果 相符 的 准确 率 。 


2.5.2 分 类 指标 

混淆 矩阵 是 评判 模型 结果 的 一 种 指标 ， 常 用 于 
评判 分 类 器 模型 的 优 劣 “I。 在 混淆 矩阵 的 基础 上 
延伸 了 精确 率 (Precision), AEX (Recall) 以 及 
F, Score 等 指标 ， 预 测 性 分 类 模型 ， 期望 越 准确 越 
理想 ， 对 应 到 混 消 矩阵 中 ， 期 望 TP (True Positive) 
Hj TN (True Negative) 的 数量 大 ， 而 FP (False 
Negative) 5j FN (False Positive) 的 数量 小 。 
F, Score 的 物理 意义 是 将 精确 率 和 召回 率 进 行 加 权 
FI, AR (6) 认为 两 者 权重 相等 ， 其 取 值 范围 
从 0 到 1，1 代 表 模 型 的 输出 结果 最 好 ，0 代 表 模 型 
的 输出 结果 最 差 。 混 淆 矩阵 的 分 类 指标 如 表 3 
所 示 。 


RI 混淆 矩阵 的 分 类 指标 


Table 3 Classified indicators of Confusion matrix 


指标 意义 
EE EUR HR EDS MU PE Bi 
Precision- ———— —— (4) o 
TP + FP 测 正确 的 比例 
T 模型 正确 预测 为 正 类 的 样本 
Recall- ——— —— (5) , EDEN 
TP * FN 数 占 总 的 正 类 样本 数 的 比例 
F Score = 2Precision X Recall 综合 了 Precision Ej Recall 产 出 
1 ~~ Precision + Recall 的 结果 ,认为 两 者 同样 重要 


2.6 实验 环境 及 参数 设置 


为 确保 模型 运行 环境 的 一 臻 性， 消除 实验 结 
因 环境 因素 之 来 的 影响 ， 本 实验 所 有 模型 训练 及 测 
试 过 程 中 均 采用 相同 的 实验 环境 ， 具 体 如 表 4 
Biz o 
表 4 模型 训练 及 测试 的 实验 环境 


Table 4 Experimental environment for model training and testing 


软件 硬件 
编译 器 :Pycharm 2021.1.1 处 理 器 :Intel i7-10750H CPU 


语言 :Python 3.7.0 内 存 :16 GRAM 


图 形 处 理 器 :NVIDIA GeForce 
GTX 1660 Ti 


显存 :6 G 


模型 训练 中 ， 每 次 训练 所 选取 的 样本 数 Batch 
Size 设 为 32， 和 迭代 次 数 Epoch 设 为 100， 损失 函 数 
KR SAR PRC, Die ai ae FA BL REP BE, K 
用 余弦 退火 策略 设置 学 习 率 ， 初 始 学 习 率 设 为 
0.01，100 个 Epoch 后 减 小 到 0.0001。 


深度 学 习 框架 :PyTorch 1.11.0 


运算 平台 :CUDA 10.0.130 
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3 BRAD 


3.1 基于 EfficientNet B0 网 络 的 荒漠 植物 识 
别 结果 


TEE dg 50 ficis HUI, VA EfficientNet BO 
为 基础 网 络 ， 基 于 迁移 学 习 和 集成 学 习 ， 构 建 荒漠 
植物 图 像 识别 模型 。 根 据 50 类 荒漠 植物 图 像 数量 ， 
首先 划分 20% 的 数据 作为 测试 集 ， 剩 余 采用 五 折 交 
又 验证 划分 数据 集 ， 则 可 用 DPC = 1，2，…:，5) 
表示 每 一 折 训 练 集 和 验证 集 。 在 测试 集 上 ， 基 于 
EfficientNet BO 网 络 的 荒漠 植物 识别 结果 如 表 5 
所 示 。 

表 5 EfficientNet BO 网络 的 荒漠 植物 识别 结果 


Table 5 Desert plant recognition results using 


EfficientNet BO network 


Top-1 准 确 、 


模型 精确 率 /% 召回 率 /% F Score/?6 
率 /% 


大 ， 都 达到 了 较 高 的 水 平 ， 而 已 Score 综合 了 两 类 
结果 ， 更 为 全 面 地 评价 了 模型 的 性 能 优 劣 。 

通过 集成 学 习 和 投票 法 策略 集成 模型 后 ， 模 型 
的 Top-1 YE ti 24 All F, Score 都 有 了 提升 ，Ensemble- 
Soft 模 型 准确 率 相 对 于 EfficientNet BO-DP3 模型 最 
HEJETT 1.37%, F, Score 提升 1.3%， 而 软 投 票 相 
比 便 投票 策略 ESSO F, Score 略 高 ， 验 证 了 软 
投票 考虑 预测 概率 ， 可 以 得 出 更 加 准确 的 预测 结 
果 。 通 过 加 权 投 票 法 集成 的 Ensemble-Weight 模 型 , 
相 比 于 Ensemble-Soft 模 型 和 Ensemble-Hard 模型 的 
准确 率 和 已 Score 提升 不 明显 ， 但 表明 本 研究 提出 
的 加 权 投 票 法 效果 优 于 二 者 。3 个 集成 模型 对 于 Ef- 
ficientNet B0-DP5 模型 YEW 4 All F, Score 提升 不 
大 ， 可 得 出 结论 ， 对 于 5 个 EfficientNet B0 模 型 , 
虽 模 型 的 识别 效果 相差 不 大 ， 但 模型 之 间 较 高 的 同 
质 性 限制 了 投票 法 策略 的 发 挥 ， 甚 至 对 于 集成 模型 
而 言 ，EfficientNet B0-DP5 模 型 是 其 识别 效果 是 否 


EfficientNet BO-DP1 92.99 93.66 92.89 93.28 
EfficientNet BO-DP2 92.62 93.48 92.54 93.01 
EfficientNet BO-DP3 92.26 92.95 92.21 92.58 
EfficientNet BO-DP4 93.23 93.61 93.17 93.39 


EfficientNet B0-DP5 93.35 93.85 93.27 93.56 
Ensemble-Soft 93.63 94.24 93.52 93.88 
Ensemble-Hard 93.55 94.12 93.44 93.78 

Ensemble-Weight 93.67 94.25 93:37 93.91 


如 表 S$ 所 示 ， 经 过 5 个 不 同 训练 集训 练 出 的 Ef- 
ficientNet B0 模 型 ， 对 于 同一 份 测试 集 $ 个 子 模型 
的 Top-1 准确 率 各 不 相同 ， 最 高 为 93.35%， 最 低 为 
92.26%， 相 差 1.09%， 表 明 经 过 五 折 交 又 验证 划分 
后 ， 对 于 同一 网 络 表现 出 不 同 的 识别 准确 率 ， 数 据 
集 存在 一 定 的 差异 性 。5 个 EfficientNet B0 模 型 的 
F, Score 也 均 有 差异 ， 最 高 为 93.36%， 最 低 为 
93.01%， 相 差 0.55% ，Top-1 准确 率 与 书 Score BU fti 
相当 ， 可 见 模 型 识别 准确 率 达 到 较 高 水 平 ， 性 能 较 
为 显著 。 从 精确 率 和 召回 率 的 值 可 以 看 出 ， 对 于 5 
个 子 模型 和 3 个 集成 模型 ， 精 准 率 都 高 于 Top-1 ;准确 
率 ， 表 明 模 型 对 正 样本 结果 中 的 预测 准确 程度 高 于 
整体 的 预测 准确 程度 ， 同 理 ， 召 回 率 都 低 于 Top-1 
准确 率 ， 表 明 模 型 对 实际 为 正 的 样本 预测 为 正 样本 
的 比例 低 于 整体 的 预测 准确 程度 ， 但 两 者 相差 不 


显著 的 关键 所 在 ， 所 以 应 考虑 使 用 差异 性 较 大 的 网 
络 作为 子 网 络 。5 个 EfficientNet B0 网 络 在 验证 集 上 
的 损失 值 变化 曲线 如 图 6 所 示 。 


| 一 一 B0_DP1 

16 一 一 B0_DP2 
— B0 DP3 

14 Bü DP4 
BO DP5 


0 20 40 60 *ü 100 


和 迭代 次 数 


图 6 5 个 EfficientNet B0 网 络 损失 值 变 化 曲线 
Fig. 6 Loss value variation curves of five EfficientNet 


BO networks 


3.2 基于 差异 化 网 络 的 荒漠 植物 识别 结果 


EfficientNet B1 一 B7 网 络 是 在 EfficientNet BO 
的 基础 上 对 网 络 的 深度 、 宽 度 和 图 像 的 分 辩 率 进行 
放大 操作 ， 且 在 MBConv Block 中 捷径 连接 和 主 分 
支 相 加 之 前 ， 进 行 Dropout 操 作 ， 在 防止 网 络 过 度 
拟 合 的 过 程 中 会 随机 丢弃 整个 MBConv Block, H 
剩 下 捷径 连接 ， 这 使 得 模型 在 训练 过 程 中 具有 随机 
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深度 ， 进 一 步 放 大 了 EfficientNet 系 列 网 络 间 的 差异 

， 使 得 EfficientNet 系 列 网 络 可 作为 子 模型 用 于 集 
学 习 。 

在 相同 的 训练 条 件 下 ， 考 虑 到 模型 的 识别 效率 
问题 选用 EfficientNet BO—B4 网络 作为 子 模 型 BO 
网 络 保持 不 变 ,， 将 DPi(i = 2, 3, 4, 5) — Tyr 
据 集 作为 EfficientNet B1 一 B4 网 络 的 训练 集 和 验证 
集 ， 基 于 迁移 学 习 和 集成 学 习 ， 构 建 荒漠 植物 图 像 
识别 模型 ， 基 于 差异 化 网 络 的 荡 漠 植物 识别 结 
见 表 6。 

表 6 差异 化 网 络 的 荒漠 植物 识别 结果 


Table 6 Recognition results of desert plants based on 


a E 


differential networks 


Top-1 准确 


模型 精确 率 /% 召回 率 /% F, Score/% 
率 /% 

EfficientNet BO-DP1 92.99 93.66 92.89 93.28 
EfficientNet B1-DP2 93.43 93.84 93.27 93.55 
EfficientNet B2-DP3 95.45 95.63 95.45 95.54 
EfficientNet B3-DP4 96.57 96.71 96.53 96.62 
EfficientNet B4-DP5 96.65 96.77 96.66 96.71 
Ensemble-Soft 99.07 99.06 99.07 99.07 
Ensemble-Hard 98.91 98.93 98.90 98.91 
Ensemble-Weight 99.23 99.24 99.23 99.23 


如 表 6 所 示 ， 对 于 同一 份 测试 集 Top-1 准确 率 
Fi A 96.65%, F, Score 为 96.71%， 两 者 相当 ， 可 
JL EfficientNet B4 单 一 网 络 已 能 达到 较 高 的 精度 ， 
模型 性 能 显著 。 因 EfficientNet B1 一 B4 网 络 基于 了 B0 
网 络 在 深度 、 宽 度 和 分 辨 率 三 个 尺度 上 都 进行 了 放 
大 操作 ，Top-1 准确 率 和 F, Score 名 有 提升 ， 证 明了 
随 着 三 者 的 不 断 扩大 ， 可 达到 更 高 的 模型 识别 准确 
3. [HI] TEES], F, Score 相 比 准确 率 提升 放 组 , 
H. EfficientNet B4-DP5 模型 的 精度 已 经 略 高 于 Effi- 
cientNet B3-DP4， 说 明 此 时 继续 放大 三 者 可 能 会 出 
现 模型 退化 现象 ， 在 训练 难度 加 大 的 情况 下 ， 若 出 
现 模型 退化 现象 会 使 成 本 增 大 ， 更 加 不 利于 集成 模 
型 。 通 过 对 比 精确 率 和 召回 率 ， 呈 现 与 集成 5 个 Ef- 
ficientNet BO 网 络 大 致 相同 的 结果 ， 精 确 率 高 于 
Top-1 准确 率 ， 而 召回 率 会 出 现 与 Top-1 准确 率 相当 
的 情况 ， 此 时 模型 更 加 注重 对 实际 为 正 的 样本 预测 
为 正 样 本 的 结果 ， 说 明 在 一 定 程度 上 放大 三 者 能 够 
得 到 更 高 的 精确 率 和 召回 率 ，F, Score 也 随 之 提高 。 


经 过 投票 法 策略 集成 模型 后 ，Ensemble-Soft 模 
型 Top-1 准确 率 和 FScore 相 比 于 EfficientNet B0- 
DP1 提升 了 6.08% 和 5.79%， 提 升 效果 显著 ， 相 比 
于 EfficientNet B4-DP5，Ensemble-Soft 模型 也 有 
2.42% 和 2.36% 的 提高 ， 对 比 集成 5 个 EfficientNet 
BO 网 络 性 能 提升 效果 显著 ,说 明 投 票 法 策略 更 适 
用 于 集成 学 习 中 模型 同 质 性 低 的 子 网 络 。 软 投票 相 
比 硬 投票 策略 ， 准 确 率 和 已 Score 都 提升 了 0.16%， 
再 次 验证 了 软 投票 效果 更 佳 。 通 过 加 权 投 票 法 集成 
的 Ensemble-Weight 模 型 ， 准 确 率 和 已 Score 软 投票 
和 硬 投 票 也 有 了 提升 ， 均 达到 99.23% ， 模 型 性 能 显 
著 且 识别 效果 更 佳 ， 再 次 表明 加 权 投票 法 效果 优 于 
二 者 。 

另外 ， 基 于 Ensemble-Weight 模型 ， 测 试 采 集 
到 的 50 种 植物 的 Top-1 准确 率 ， 均 达到 了 97% 及 以 
Eo EfficientNet B0 一 B4 网 络 在 验证 集 上 的 损失 值 
变化 曲线 如 图 7 所 示 。 
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图 7 EfficientNet B0 一 B4 网 络 损失 值 变 化 曲线 
Fig. 7 Loss value variation curves of EfficientNet 


B0-B4 network 
3.3 集成 学 习 的 有 效 性 验证 


为 验证 本 研究 所 提出 的 集成 学 习 方法 的 有 效 
性 ， 采 用 公开 数据 集 进行 对 比 。Oxford Flowers102 
数据 集 是 英国 常见 的 102 种 花 弄 植物 的 一 类 数据 ， 
每 种 花 弄 植物 包含 40 至 258 张 图 像 ， 共 计 8189 张 
图 像 ， 该 花卉 植物 图 像 数 据 集 在 姿势 和 光线 上 具有 
较 大 比例 的 变化 。 此 外 ， 部 分 类 别 在 该 类 别 和 几 个 
非常 相似 的 类 别 中 有 很 大 的 差异 。 考 虑 到 Oxford 
Flowers102 数据 集 的 公开 性 ， 与 本 人 研究 所 建立 的 藻 
漠 植 物 图 像 数据 集 在 形态 特征 分 布 上 具有 一 定 的 相 
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似 性 ， 种 类 较 多 且 在 数量 分 布 上 具有 较 大 的 差异 
性 ， 可 以 作为 本 研究 提出 的 集成 学 习 方法 有 效 性 验 
证 的 对 比 数据 集 ，Oxford Flowers102 图 像 实例 
见 图 8。 


(a)barbeton daisy (b)sword lily 


(d)orange dahlia (e)gazania (f) water lily 


图 8 Oxford Flowers102 图 像 实 例 


Fig. 8 Examples of Oxford Flowers102 images 


根据 102 类 花 开 植物 图 像 数量 ， 首 先 划 分 出 
20% 的 测试 集 ， 而 后 采用 五 折 交 又 验证 划分 剩余 数 
据 集 ， 则 可 用 OFi(i= 1，2，……,， 5) 表示 每 一 折 
训练 集 和 验证 集 。 模 型 训练 中 ， 采 取 与 荒漠 植物 图 
像 识 别 模型 相同 的 训练 策略 。 在 测试 集 上 ， 基 于 差 
异化 网 络 的 Oxford Flowers102 识别 结果 见 表 7。 

表 7 差异 化 网 络 的 Oxford Flowers102 识别 结果 
Table 7 Recognition results of oxford flowers102 based on dif- 


ferential network 


Top-1 “EH 
SP p 精确 率 /% 召回 率 /% F Score/% 
~/ /0 


模型 率 


AYE F, Score 提升 放 缓 ， 若 继续 增 大 模型 体积 可 能 
会 出 现 退 化 现象 ， 训 练 成 本 提高 且 降 低 识 别 效率 ， 
不 利于 模型 集成 。 


4 ”讨论 与 结论 


4.1 讨论 


目前 ， 有 关于 植物 图 像 识别 大 多 局 限于 单一 背 
景 下 或 实验 室 环境 下 的 植物 识别 研究 ， 且 识别 对 象 
多 为 植物 的 叶片 或 局 部 器 官 ， 但 在 实际 应 用 中 搜集 
到 的 大 多 数 植物 图 像 都 是 自然 背景 下 的 ， 包 含 例如 
光照 、 土 壤 、 杂 草 、 其 他 植物 以 及 植物 成 群生 长 等 
复杂 噪声 ， 因 此 自然 背景 下 的 整 株 蕊 漠 植 物 无 法 运 
用 传统 的 方式 去 识别 。 本 研究 致力 于 解决 自然 背景 
下 的 荒漠 植物 图 像 识 别 以 及 克服 各 种 影响 精度 的 背 
景 干 扰 和 天 然 噪声 ， 提 高 精度 的 同时 增加 模型 的 泛 
化 能 力 。 

现 阶 段 ， 国 内 外 对 于 荒漠 植物 的 分 类 识别 ， 主 
要 依靠 传统 人 工 识别 及 专家 经 验 ， 耗 时 且 费 力 。 用 
智能 识别 算法 辅助 识别 车 漠 植 物 ， 能 够 有 效 节省 时 
间 和 人 力 成 本 ， 并 为 野外 调查 人 员 提 供 支 持 和 减少 
对 专家 鉴定 的 依赖 。 本 研究 构建 了 自然 背景 下 新 疆 
昌吉 及 塔 城 地 区 50 种 荒漠 植物 图 像 数 据 集 ， 每 种 
荒漠 植物 图 像 数 量 在 183 至 339 张 ， 共 计 12,507 张 
FMR. SCHR °° 基于 植物 整体 外 观 特征 ， 但 研究 对 
象 多 为 草地 植物 、 田 间 杂 草 以 及 室内 盆栽 。 目 前 ， 


EfficientNet BO-OF 1 93.13 93:25 91.96 92.60 
EfficientNet B1-OF2 93.51 94.32 92.67 93.48 
EfficientNet B2-OF3 94.19 94.38 93.34 93.85 
EfficientNet B3-OF4 94.76 94.57 94.60 94.58 
EfficientNet B4-OF5 95.13 95.15 94.08 94.61 
Ensemble-Soft 97.63 97.72 97.28 97.50 
Ensemble-Hard 97.07 97.06 96.74 96.90 
Ensemble-Weight 97.69 97.81 97.49 97.65 


如 表 7 所 示 ，5 个 子 模型 在 Oxford Flowers102 
和 荒漠 植物 数据 集 的 识别 效果 类 似 ，Top-1l 准确 率 
MIF, Score 相当 ， 达 到 了 较 高 的 水 平 。 而 3 个 集成 
模型 相 比 5 个 子 模型 准确 率 和 下, Score 最 高 提升 了 
4.56% 和 5.05%， 最 低 也 提升 了 1.94% 和 2.29%， 验 
证 了 本 研究 提出 的 集成 学 习 策 略 能 够 提高 模型 的 识 
别 准确 率 ， 提 升 模型 性 能 。 可 以 观察 到 ，5 个 子 模 


国内 暂 无 有 关 匾 漠 植 物 图 像 数 据 集 的 构建 与 识别 研 
究 。 国 外 已 知 有 关 自 然 背 景 下 车 漠 植 物 的 识别 研究 
工作 也 相对 较 少 ,文献 UÁ 构建 了 一 个 包含 24 种 藉 
漠 植 物 ， 共 计 2331 张 图 像 的 荒漠 植物 图 像 数 据 集 ， 
在 对 比 一 系列 模型 后 实现 了 在 精度 与 体积 之 间 的 最 
佳 平衡 ， 本 研究 所 构建 的 数据 集 与 其 相 比 ， 在 植物 
种 类 及 数量 上 超过 前 者 ,识别 准确 率 也 远 超 前 者 ， 
并 且 本 研究 所 使 用 的 荒漠 植物 图 像 全 部 拍摄 于 野外 
调查 ， 未 与 前 者 一 样 结合 公 开 数 据 集 或 网 络 爬 取 , 
能 够 较为 真实 地 反映 荒漠 植物 在 一 段 时 间 内 的 生长 
寺 征 。 本 研究 所 使 用 的 迁移 、 集 成 学 习 策略 BEUE 
有 效 提 高 模型 的 识别 准确 率 ， 在 50 种 荒漠 植物 网 
像 数 据 集 的 最 高 准确 率 已 达到 99.23%， 人 性 能 显著 ， 
且 每 种 植物 分 类 的 误差 均 不 大 。 但 在 实验 过 程 中 发 
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现 以 下 问题 有 待 完善 和 解决 : 
(1) 荒漠 植物 图 像 数 据 集 还 需 进 一 步 补 充 和 完 
善 ， 可 从 欧 漠 植物 种 类 及 采集 阶段 两 个 方向 考虑 ; 
(2) 考虑 其 他 集成 学 习 策略 或 选择 轻 量 化 网 络 
作为 子 网 络 ， 来 改善 难以 训练 和 推理 速度 慢 的 


问题 。 


4.2 结论 


基于 PyTorch 深度 学 习 框 架 ， 以 自然 环境 及 自 
然 背景 下 新 疆 昌 吉 和 塔 城 地 区 采集 的 荒漠 植物 图 像 
为 研究 对 象 ， 提 出 一 种 融合 迁移 学 习 和 集成 学 习 的 
整 株 荒漠 植物 图 像 识别 算法 ， 解 决 了 荒漠 植物 图 像 
在 真实 野外 环境 下 识别 精度 低 、 模 型 鲁 棒 能 力 及 泛 
化 能 力 弱 的 问题 ， 可 应 用 于 时 外 实地 调查 、 教 学 科 
普 以 及 科学 实验 等 场景 弥补 了 当前 国内 关于 蕊 漠 
植物 图 像 数 据 集 构建 及 机 器 视觉 分 类 识别 研究 的 不 
足 。 本 研究 基于 EfficientNet 系 列 网 络 ， 通 过 迁移 学 
习 在 ImageNet 数 据 集 上 进行 预 训练 ， 而 后 采用 将 
Bagging 和 Stacking 结合 的 集成 学 习 策 略 ， 第 一 层 
采用 Stacking 的 方法 并 引入 开 折 交叉 验证 划分 数据 
集 以 及 训练 模型 ， 第 二 层 采用 Bagging 的 方式 将 第 
一 层 模型 的 输出 特征 通过 投票 法 集成 模型 ， 从 而 得 
到 完整 的 集成 学 习 模 型 。 

基于 EfficientNet BO 网络 的 单一 子 模型 的 Top-1 
准确 率 最 高 可 达 93.35%， 最 低 为 92.26%， 单 一 子 
模型 已 能 够 达到 较 高 的 精度 。 通 过 投票 法 集成 模型 
后 ， 软 投票 、 硬 投票 以 及 加 权 投 票 法 的 准确 率 分 别 
23 93.6396, 93.55% 和 93.67% F, Score 和 准确 率 相 
当 ， 比 起 单一 子 模型 提高 不 明显 ， 子 模型 之 间 较 高 
的 同 质 性 限制 了 投票 法 策略 的 发 挥 。 在 使 用 差异 较 
大 的 网 络 作为 子 模型 时 ， 即 EfficientNet B0 一 B4 网 
络 ， 基 于 EfficientNet B0 一 B4 网 络 的 单一 子 模 型 的 
Top-1 准确 率 最 高 可 达 96.65%, F, Score 为 96.71%， 
模型 性 能 优异 。 而 软 投票 、 硬 投票 以 及 加 权 投 票 法 
的 准确 率 分 别 为 99.07%、98.91% 和 99.23%， 相 较 
于 单一 子 模型 ， 精 度 进一步 提高 ，F Score 与 准确 
率 基 本 相同 ， 模 型 性 能 显著 。 在 公开 数据 集 Oxford 
Flowers102 上 进行 了 集成 学 习 的 有 效 性 验证 ， 发 现 
本 研究 提出 的 集成 学 习 策 略 相 比 单一 子 模 型 能 够 有 
效 提高 模型 的 识别 准确 率 ， 提 升 模型 性 能 。 本 研究 


使 用 次 度 学 习 算 法 识别 芒 江 植物， 能够 为 大 漠 植物 
认识 及 多 样 性 保护 和 野外 调查 人 员 提 供 技术 支持 ， 
为 保护 和 利用 自然 植物 资源 提供 科学 依据 。 


利益 冲突 声明 : 本 研究 不 存在 研究 者 以 及 与 公开 
研究 成 果 有 关 的 利益 冲突 。 
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WANG Yapeng", CAO Shanshan”, LI Quansheng', SUN Wei” 
(1. Computer and Information Engineering College, Xinjiang Agricultural University, Urumqi 830052, China; 2. Agricul- 
tural Information Institute, Chinese Academy of Agricultural Sciences, Beijing 100081, China; 3. National Agriculture Sci- 
ence Data Center, Beijing 100081, China) 
Abstract: 


[Objective] Desert vegetation is an indispensable part of desert ecosystems, and its conservation and restoration are crucial. Accurate 


identification of desert plants is an indispensable task, and is the basis of desert ecological research and conservation. The complex 


growth environment caused by light, soil, shadow and other vegetation increases the recognition difficulty, and the generalization abili- 
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ty is poor and the recognition accuracy is not guaranteed. The rapid development of modern technology provides new opportunities 
for plant identification and classification. By using intelligent identification algorithms, field investigators can be effectively assisted 
in desert plant identification and classification, thus improve efficiency and accuracy, while reduce the associated human and material 
costs. 

[Methods] In this research, the following works were carried out for the recognition of desert plant: Firstly, a training dataset of deep 
learning model of desert plant images in the arid and semi-arid region of Xinjiang was constructed to provide data resources and basic 
Support for the classification and recognition of desert plant images.The desert plant image data was collected in Changji and Tacheng 
region from the end of September 2021 and July to August 2022, and named DPlants50. The dataset contains 50 plant species in 13 
families and 43 genera with a total of 12,507 images, and the number of images for each plant ranges from 183 to 339. Secondly, a mi- 
gration integration learning-based algorithm for desert plant image recognition was proposed, which could effectively improve the rec- 
ognition accuracy. Taking the EfficientNet BO — B4 network as the base network, the ImageNet dataset was pre-trained by migration 
learning, and then an integrated learning strategy was adopted combining Bagging and Stacking, which was divided into two layers. 
The first layer introduced K-fold cross-validation to divide the dataset and trained K sub-models by borrowing the Stacking method. 
Considering that the output features of each model were the same in this study, the second layer used Bagging to integrate the output 
features of the first layer model by voting method, and the difference was that the same sub-models and K sub-models were compared 
to select the better model, so as to build the integrated model, reduce the model bias and variance, and improve the recognition perfor- 
mance of the model. For 50 types of desert plants, 20% of the data was divided as the test set, and the remaining 5 fold cross valida- 
tion was used to divide the dataset, then can use DPi(i=1,2,---,5) represents each training or validation set. Based on the pre trained Ef- 
ficientNet BO— B4 network, training and validation were conducted on 5 data subsets. Finally, the model was integrated using soft vot- 
ing, hard voting, and weighted voting methods, and tested on the test set. 

[Results and Discussions] The results showed that the Top-1 accuracy of the single sub-model based on EfficientNet BO network 
was 92.26%~93.35%, the accuracy of the Ensemble-Soft model with soft voting, the Ensemble-Hard model with hard voting and the 
Ensemble-Weight model integrated by weighted voting method were 93.63%, 93.55% and 93.67%, F, Score and accuracy were com- 
parable, the accuracy and F, Score of Ensemble-Weight model integrated by weighted voting method were not significantly improved 
compared with Ensemble-Soft model and Ensemble-hard model, but it showed that the effect of weighted voting method proposed in 
this study was better than both of them. The three integrated models demonstrate no noteworthy enhancements in accuracy and F, 
Score when juxtaposed with the five sub-models. This observation results suggests that the homogeneity among the models constrains 
the effectiveness of the voting method strategy. Moreover, the recognition effects heavily hinges on the performance of the Efficient- 
Net BO-DP5 model. Therefore, the inclusion of networks with more pronounced differences was considered as sub-models. A single 
sub-model based on EfficientNet BO— B4 network had the highest Top-1 accuracy of 96.65% and F, Score of 96.71%, while Ensem- 
ble-Soft model, Ensemble-Hard model and Ensemble-Weight model got the accuracy of 99.0796, 98.9196 and 99.2395, which further 
improved the accuracy compared to the single sub-model, and the F, Score was basically the same as the accuracy rate, and the model 
performance was significant. The model integrated by the weighted voting method also improved accuracy and F, Score for both soft 
and hard voting, with significant model performance and better recognition, again indicating that the weighted voting method was 
more effective than the other two. Validated on the publicly available dataset Oxford Flowers102, the three integrated models im- 
proved the accuracy and F, Score of the three sub-models compared to the five sub-models by a maximum of 4.56% and 5.05%, and a 
minimum of 1.94% and 2.29%, which proved that the migration and integration learning strategy proposed in this paper could effec- 
tively improve the model performances. 

[Conclusions] In this study, a method to recognize desert plant images in natural context by integrating migration learning and inte- 
gration learning was proposed, which could improve the recognition accuracy of desert plants up to 99.2396 and provide a solution to 
the problems of low accuracy, model robustness and weak generalization of plant images in real field environment. After transferring 
to the server through the cloud, it can realize the accurate recognition of desert plants and serve the scenes of field investigation, teach- 


ing science and scientific experiment. 
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